# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

2001-167001

(43)Date of publication of application: 22.06.2001

(51)Int.CI.

G06F 12/16

(21)Application number: 2000-312778

(71)Applicant: HEWLETT PACKARD CO <HP>

(22)Date of filing:

13.10.2000

(72)Inventor: MICHAEL B REIHAMU

JAMES G MATTHIAS

(30)Priority

Priority number: 1999 430363

Priority date : 28.10.1999

Priority country: US

# (54) SELF-RECOVERY MEMORY CONFIGURATION

(57)Abstract:

PROBLEM TO BE SOLVED: To provide a memory system configuration for detecting and correcting plural errors on plural channels without requiring a complicated data correcting method and supporting hot swapping of a memory, where a fault occurs, as well.

SOLUTION: This memory configuration is provided with a CPU bus electrically connected to a memory controller, the memory controller connected to a switching means and the switch electrically connected to plural memory modules. The plural memory modules include at least one memory module for data, at least one memory module for data correction and at least one hot spare module. The memory module for data, the memory module for error correction and the hot spare memory module are connected parallel.



ROM 'EDC知的財產部

(19)日本国特許庁 (JP)

# (12) 公開特許公報(A)

(11)特許出願公開番号 特開2001-167001

(P2001-167001A)

(43)公開日 平成13年6月22日(2001.6.22)

| (51) Int.Cl.' | 線別記号  | FI            | デーマコート*(参考) |  |
|---------------|-------|---------------|-------------|--|
| G06F 12/16    | 310   | G 0 6 F 12/16 | 3 1 0 Q     |  |
|               | 3 2 0 |               | 3101        |  |
|               |       |               | 320F        |  |
|               |       |               | 3 2 0 L     |  |

# 審査請求 未請求 請求項の数1 OL (全 11 頁)

| (21) 出版番号              | 特數2000-312778(P2000-312778) | (71)出順人 | 398038580                                                                |
|------------------------|-----------------------------|---------|--------------------------------------------------------------------------|
| (22)出顧日<br>(31)優先権主張番号 | 平成12年10月13日(2000.10.13)     |         | ヒューレット・パッカード・カンパニー<br>HEWLETT-PACKARD COM<br>PANY<br>アメリカ合衆国力リフォルニア州パロアル |
| (32) 優先日               | 平成11年10月28日 (1999. 19.28)   |         | ト ハノーバー・ストリート 3000                                                       |
| (33) 優先權主張国            | 米国 (US)                     | (72)発明者 | マイケル・ピー・レイハム                                                             |
|                        |                             |         | アメリカ合衆国95033カリフォルニア州ロ                                                    |
|                        |                             |         | ス・ガトス、クヌース・ロード 18219                                                     |
|                        |                             | (72)発明者 | ジェームス・ジー・マティオス                                                           |
| et.                    |                             |         | アメリカ合衆国95070カリフォルニア州サ                                                    |
|                        |                             |         | ラトガ、ウッドサイド・ドライブ 12541                                                    |
|                        |                             | (74)代理人 | 100081721                                                                |
|                        |                             |         | <b>弁理士 岡田 次生</b>                                                         |

# (54) 【発明の名称】 自己回復するメモリ構成

## (57)【要約】

【課題】 複雑なデータ修復方法を必要とせず、複数チャネル上の複数エラーに対するエラー検出および訂正を 行うと共に、障害の発生したメモリのホットスワッピン グもサポートする、メモリシステム構成を提供する。

【解決手段】 本メモリ構成には、メモリコントローラに電気的に結合されているCPUパスと、スイッチング手段に接続されたメモリコントローラと、複数のメモリモジュールに電気的に接続されたスイッチとを含む。複数のメモリモジュールは、少なくとも一つのデータ用のメモリモジュールと、少なくとも一つのホットスペアモジュールとを含む。データ用メモリモジュールと、エラー訂正用メモリモジュールと、ホットスペアメモリモジュールとは並列に接続されている。



### 【特許請求の範囲】

【請求項1】 メモリコントローラに電気的に結合されたCPUパスと、

前記メモリコントローラに電気的に結合されたデータバスと、

少なくとも 1 つのデータ記憶用メモリモジュールと、 少なくとも 1 つのスペアメモリモジュールと、を具備 し、

前記少なくとも1つのデータ記憶用メモリモジュールおよび前記少なくとも一つのスペアメモリモジュールは、前記データバスに並列に電気的に結合されており、前記少なくとも1つのデータ記憶用メモリモジュールで発生する訂正可能なエラーに応答して、前記少なくとも1つのデータ記憶用メモリモジュールからのデータが前記スペアメモリモジュールにマップされるメモリ構成。

### 【発明の詳細な説明】

### [0001]

【発明の属する技術分野】本発明は、メモリ障害後に自 己回復することができるサーバ用のメモリシステムに関 する。

#### [0002]

【従来の技術】利用可能なサーバメモリシステムのサイズは、時と共に増大し続けており、現サーバメモリシステムは、64ギガバイト以上であることも多い。メモリシステムのサイズが増大するに従い、メモリピットを生する可能性をおい、メモリシステムのサイズが増大するに降害が発生する可能性も増加している。メモリシステムに降害は、一時のカエラーは、一般に、アルファ粒子によって起こる。永統的エラーは、一般に、アルファ粒子によって起こる。永統的エラーは、一般に、メモリセルウォール降害、行まな列ーには、一般に、メモリセルウォール降害、大郎機械である。アルインターには、一般に、メモリセルウォールの関連を表して、「DIMM」とする)の印では、「DIMM」とする)の印では、「DIMM」とする)の印では、「DIMM」とする)の印では、「DIMM」とする)の印では、「DIMM」とする)の印では、「DIMM」とする)ののでは、「DIMM」とする)ののでは、「DIMM」とする)ののでは、「DIMM」とする)ののでは、「DIMM」とする。

【0003】メモリシステムの障害を防止するために、種々の形態のメモリ検出および訂正プロセスが開発されている。一般的に使用されているシステムのうちの1つでは、エラーを検出するパリティビットを使用する。データを受信すると、予期される値に対してデータのパリティがチェックされる。データが予期されるパリティ値(奇数または偶数)と一致しない場合は、エラーが発生したと判断される。この方法は単一のビットエラーを判断するには機能するが、複数のビットエラーを判断するには機能するが、複数のビットエラーを判断される。ではない。更に、最も簡単なパリティシステムは、データエラーを訂正する仕組みを有していない。

【0004】Gaskinsらに対する米国特許第5,463,643号は、複数エラーを検出できるパリティシステムを提供する。Gaskinsらの構成は、データエラーを訂正する概を含むRAMBUSメモリシステムと共に動作するよう

設計されている。RAMBUS仕様には、16ビットデータパスとパリティビットと種々の制御信号、電源信号および接地信号とを含むメモリチャネル仕様が含まれる。

【0005】図1は、直列に接続された複数のメモリモ ジュールを有する一般的なRAMBUSメモリ構成10 0 の高レベル部分ブロック図を示す。図 1 には、メモリ チャネル112およびCPUバス114に電気的に接続 されたメモリ 1/0コントローラ110が示されてい る。メモリチャネル112は、RAMBUS構成仕様に 従って直列に接続された複数のメモリモジュール116 a. 116b. …116nに電気的に接続されている。 【0006】Gaskinsらによって述べられているRAM BUS仕様に起こり得る問題の1つとして、パリティチ ェックがメモリエラーの検出用にのみ供されており、ェ ラー訂正用には限定的な提供しかされていない、という ことがある。Gaskinsらの構成はデータエラーの訂正は できるが、そのエラー訂正能力は限定的である。図2を 参照すると、4つのデータチャネル210a~21() d および1つのパリティチャネル210eを有する、Gask insらのデータチャネルおよびパリティチャネルの高レ ベル部分プロック図が示されている。Gaskinsらの構成 は単一チャネル上の単一または複数のエラーを訂正する ことができるが、出願人は、この構成では複数チャネル 上で2つ以上のエラーを検出することができないと考え ている。例えば、チャネル210aで完全な(すべての ビット)障害が発生した場合は、データを再構成するこ とができる。しかしながら、異なるチャネル上で2つの ビット障害が発生した(例えば、チャネル210a.上で 1つのピット障害が発生し、チャネル210b上で1つ のピット障害が発生する) 場合、エラーの検出はでき ず、データを再構成できない。

【0007】Gaskinsらの構成における更なる問題は、メモリ I / Oコントローラ上の I / Oピン数に関連する。メモリ記憶要件の増加につれ、メモリコントローラに接続されたメモリモジュールの数も増加する。直列アーキテクチャ構成では、メモリチャネルの数を1つ増やすと、メモリコントローラに直接接続されたメモリチャネルの数も1つ増える。各メモリチャネルを追加するごとに入力ピンを追加する必要があり、システムピン数が増加するので、これは問題となる。この問題は、特に大客量のメモリを有するメモリ記憶システムにおいて顕著となる。

【0008】通常使用される他のエラー検出プロセスは、エラー訂正またはエラーチェックおよびエラー訂正コード(以下、ECCと呼称する)である。一般に、ECCは、CRC(巡回冗長検査)アルゴリズムに基づいている。ECCコードは、原則としてCRCコードであり、その冗長度は十分に高いので、エラーが破局的でなければ、オリジナルデータを復元することができる。C

RCアルゴリズムは、データを受信したときに完全なデータシーケンス(データフィールドの終端に付加された CRCビットを含む)がCRCチェッカによって読み出されるように動作する。完全なデータシーケンスは、CRC多項式によって余りなく割切れなければならない。完全なデータシーケンスがCRC多項式によって割切れない場合、エラーが発生していると判断される。

#### [0009]

【発明が解決しようとする踝題】パリティに基づく従来 からのエラー訂正プロセスと異なり、ECCコードに基 づくシステムは、一般に、複数のビットエラーを検出す るために使用できる。例えば、単一ピット訂正を持つE CCメモリシステムは、一般的に、二重ピットエラーを 検出し単一ピットエラーを訂正することができる。 4ま たは8ピットエラー訂正を持つECCメモリは、一般的 に、4ピットまたは8ピットエラーを検出し訂正するこ とができる。従って、×4または×8構成で細成された SDRAMチップ全体の障害により、システムに障害が 発生することはない。ECCシステムは容易に複数エラ ーピットの検出を行うが、従来からのECCシステムの 問題は、一般に、それらが訂正不可能なエラーを報告す る場合にシステムを停止させてしまうということであ る。このため、最初の停止をしないで、ECCメモリシ ステム中の障害部分を置き換えて、システムの障害耐力 (immunity:イミュニティ) を回復することはできな 110

【0010】ECCおよびパリティブロセスは、一般 に、週7日、24時間の動作を要求される、半導体メモ りを用いるコンピュータシステムにおいて使用されてい る。コンピュータシステムが半導体メモリに要求されて いる速度を必要としない場合か、または半導体メモリを 用いた、対コスト上有効でさらに大容量の配億装置を利 用することができない場合は、ディスクドライブメモリ が使用される。ディスクドライブメモリによってサポー トされるコンピュータシステムは、一般に、ハードウェ アによって複数のディスクドライブを互いにリンクさせ て、廉価ディスク冗長アレイ(redundant array of ine xpensive disks) すなわちRAIDとして周知の、ドラ イブアレイを形成する。アレイ中のドライブは、互いに 協調しており、データはそれらの間に特別な方法で割り 振られる。ディスクドライブおよびディスクドライブを・ 銃み出す機械的インタフェースは、半導体メモリより信 類性が低いので、ディスクドライブシステムにおける永 統的または一時的なデータ障害のデータ回復プロセス は、一般に、より多くの冗長性とより複雑なデータ回復 手順を有している。

【0011】従来のRAIDシステムにおいては、データはドライブ間でビットまたはパイトレベルで分割される。例えば、4ドライブシステムにおいて、各パイトの2ビットは第1のハードディスクからもたらされ、次の

2ピットは第2のハードディスクからもたらされる、というようにである。従って、4つのドライブは、トライブを直列にしたときより4倍の速度で単一バイトのデータストリームを出力する。すなわち、1つのドライブが2ピットを転送するために必要な時間と同じ時間しがかからないで、1バイトで構成された情報のすべてが高される。いくつかのドライブ間でデータを分割すべてある。ながは、データストライピングと呼ばれ、ドライブを立ちがは、データストライピングと呼ばれ、ドライブを2の大きないできる。RAIDメモリにより、各ディスラを独立して動作させる場合よりも信頼性がの向上し、エラーに対してより大きな抵抗力を持たせることができる。信頼性および降害耐性(fault-tolerance)の向上は、ミラリングおよびパリティの実施を含む種々の冗長方法によって達成される。

【0012】複雑なデータ回復方法論を必要とせず、複数チャネル上の複数エラーに対する自動的なエラー検出および訂正機能を備えると共に、障害メモリのホットスワッピングもサポートする、メモリシステム構成が必要とされている。

#### [0013]

【課題を解決するための手段】本発明は、メモリ障害の後に自己回復(self heal)し、システムのシャットダウンまたはオペレータの介入無しで障害耐力を正常レベルに回復できる、サーバ用の自己回復メモリシステムを提供する。このメモリシステムは、「自己リカバリ」、つまり、アルファ粒子またはSDRAMのピットセルウォール障害によってより類発する単一ピット障害と同様に、DIMMにおけるSDRAM障害、DIMMコネクク障害の回復が可能である。

【0014】本発明の自己回復メモリ構成は、SDRA M(SDRまたはDDR)のような並列メモリ技術また はRAMBUSのような直列メモリ技術と共に使用する ことができる。好ましい実施の形態では、メモリ構成 は、メモリコントローラに電気的に結合されたCPUバ スと、スイッチング手段に接続されたメモリコントロー ラと、複数のメモリモジュールに電気的に接続されたス イッチング手段と、を備えている。ここで、複数のメモ リモジュールは、複数のデータメモリモジュールと、後 数のECCメモリモジュールと、ホットスペアメモリモ ジュールと、を含み、これら複数のデータメモリモジュ ールとECCメモリモジュールとホットスペアメモリモ ジュールとは、並列に接続されている。1または4ピッ トの訂正可能なハードエラーに対して、エラーが発生し たデータメモリモジュールに格納されたデータは、ホッ トスペアメモリモジュールにマップされる。複数のデー タ、ECCおよびスペアメモリモジュールの並列構成に より、CPUのローディングの低域が容易になり、また 必要な場合には、障害が発生したメモリコンポーネント のホットスワッピングが容易となる。

【0015】好ましい実施の形態は、ホットスペアメモリモジュールを含む。ECC DIMMおよびホットスペアメモペアを使用するSDRAMメモリシステムは、SDRAMの障害またはDIMMコネクタの障害を原因とする、障害が発生したDIMMからのデータの再構築を提供する。そして、障害の発生したDIMMを、オンラインで、あるいはそのシステムがホットスワップをサポートしていない場合は年一度のダウンタイムのうちの数分間に、置換することができる。その後、置換されたDIMMメモリモジュールは、メモリシステムのホットスペアとなる。

【0016】本発明の特性および利点は、明細書の残りの部分および派付図面とに関連して更に理解されよう。 【0017】

【発明の実施の形態】図3は、本発明による自己回復を対す。別メモリ構成300の部分ブロック図を示す。印度しい実施の形態では、メモリコントローカイローをでは、メモリコントローカイローカイング手段320に結合されたメモリカリング手段320に結合されたメモリカリング手段320に結合されたメーカのよう。複数のメモリモジュール324に電気がに対する。複数のメモリモジュール330と、複数のスペアメモリモジュール334と、を対している。好ましている。好きには、変数のアークメモリール334と、を対している。好きとととは、デークメモリール334とは、が列に接続されている。

【0018】図3に示す実施の形態では、データメモリ 構成は、144ピットのデータメモリチャネル340 と、36のメモリモジュールと、を有する自己回復DD Rシステムであり、好ましくは、データメモリモジュー ル330用に32のDDR DIMM、ECCメモリモ ジュール334用に8つのDIMM、および4つのDD RホットスペアDIMM338を備えている。144ピ ット幅チャネル340には、128のデータビットと1 6のECCピットとが含まれる。144ビットデータバ ス340は、4つの別々の72ピットパスセグメントに 分割される。各バスセグメントは、データに使用される 8つのデータメモリモジュール330と、ECCに使用 される2つのECCメモリモジュール334と、1つの ホットスペアメモリモジュール338と、を有している。 のが好ましい。ECCメモリモジュール334は、各チ ャネル346a~346dにおいて16のデータモジュ ールと4つのBCCモジュールとに渡ってデータストラ イピングが可能であるように設けられている。

【0019】データバス、すなわちデータメモリチャネル340は、少なくとも1つのスイッチング手段320、好ましくは1:2FETに電気的に結合されており、メモリコントローラ314を介してCPUバス31

0に電気的に結合されている。1:2FETスイッチであるスイッチング手段320は、144ビットバスを2つの144ビットバスセグメントに分割する。72ビット幅DRAMの場合、2つの144ビットバスセグメントの各々が、2つの別々の72ピットバスチャネルに分割される。72ビットメモリチャネルの各々は、複数の72ピットメモリモジュール330、334、338に並列に接続されている。

【0020】図3に示す実施の形態において、各メモリチャネルは、2ECC DIMMの幅および36DIM Mの深さであり、各々18のDIMMを持つ2つのバスセグメント(1:2FETスイッチによって分離されている)を使用している。各メモリチャネルは、8つのデータDIMMと、2つのECC DIMMと、1つのホットスペアDIMMと、を有している。従って、メモリコントローラチャネルデータI/Oピンにおける最大ローディングは、9DIMMである。これにより、4つのバスセグメントの各々において、1GBのDIMMを用いれば32GB、または2GBのDIMMを用いれば64GBの最大容量およびホットスペアDIMMが可能となる。

【0021】図3に示すメモリ構成は、ストライピングを使用する場合、容易に拡大縮小することができない。図3に示すDIMMの構成および数は、ハイエンドシステムでは一般的であるが、データバスに接続されたDIMMモジュールの数は、データ記憶用のメモリモジュール1つとホットスペアメモリモジュール1つとであってもよい。データ記憶用メモリモジュールが1つだけ使用される場合は、DIMMは、エラー訂正専用の少なくとも1つのメモリ装置またはメモリ装置のピットを有していなければならない。

【0022】図4は、好ましい実施の形態の自己回復並 列メモリ構成の部分ブロック図を示す。図4に示す好ま しい実施の形態は、図3に示す実施の形態を縮小したハ ージョンである。ここに示すメモリ構成は、データまた はECCのいずれかを格納するために使用できる複数の メモリモジュール330と、ホットスペアメモリモジュ ール338a、338bと、を有している。図3に示す 実施の形態とは対照的に、専用のECC装置は無く、代 りに、メモリ装置におけるビットがデータまたはECC に対して専用化されている。図4に示す実施の形態で は、好ましくは、各72ピットパス360aまたは36 0 bに提供される単一のホットスペアメモリモジェール がある。メモリモジュール330の1つに障害が発生し た場合、データはその対応するホットスペアモジュール にマップされる。図4に示す実施の形態では、データス トライピングは使用されず、従って、システムは拡大縮 小可能である。図4に示す実施の形態では、最低2つの データメモリモジュールと2つのスペアメモリモジュー ルとが必要である。

【0023】図4に示す実施の形態では、データメモリチャネル340は、メモリコントローラ314を、少下とも1つのスイッチング手段320、好ましくなETスイッチに電気的に結合する。FETスイッチに電気的に結合する。FETスイッチには、メモリバスからの信号を分割して、メモリバスからの信号を分割して、メモリいスからの信号を分割して、メモリいスからの信号を修成する。好ましいの表には、スイッチング手段は、1:2FETスイッチンが手段は、1:2FETスイッチンでする。しかしながら、代替的な実施ではより、チング手段は、クロスパータイプスイッチといってきる。しかしながら、シュールの数により、1:4FETを使用することができる。FETのサイズの比率が増加するということは、バスセグメントの数が増加することを意味する。

【0024】図4に示す好ましい実施の形態では、各72ビットバス360aまたは360bに対し、FETスイッチが使用されている。代替的な実施の形態では、メモリコントローラとCPUバスとの間にスイッチング手段が接続されていない。一般に、わずかな数のメモリモジュールしか必要でない小さいメモリシステム(例えば、1GBレンジ)では、メモリ構成の一部としてスイッチング手段は含まれない。

【0025】好ましい実施の形態では、メモリモジュール324は、JEDEC準拠を満たすために、72ピット幅のDRAM、好ましくはDIMMである。しかしながら、システム要件を満たす限りは、いかなるタイプの銃出し者込み可能メモリコンポーネントを使用してもよい。メモリモジュール324は、スペアであっても稼動中であってもよい。従って、バンク選択、RAS等の制御ラインは、可変であり、好ましくは各スロットに対してハードワイヤード(hardvired)されていないことが必要である。

【0026】好ましい実施の形態では、メモリ構成の各メモリチャネルは、少なくとも1つのボータ訂正用 とて、少なくとも1つのボットスペアとしない。少ないこのボータ訂正用となる。び少ないこのボータ訂正用メモリモジュールと、を有しているよび少ない。とも1つのボータ訂正用といるメモリールおよびリモジュールを表生リールがであり、このできると共に、ボータバスに対対に関係的に対対である。システムは、SDRAM障害全体についても訂正を行うことができる。また、制御またはアドレスが冗長な接点を有する場合は、DIMMソケット降害についても訂正を行うことができる。

【0027】メモリ構成は、各メモリチャネルに対し、 2つのECCメモリモジュール334を有している。 しかしながら、ECCモジュールの好ましい数は、使用されるCRC多項式のタイプに限定されず、データエラー の数およびデータエラーが訂正されるチャネルの数を含む、複数の要素によって決まる。メモリコントローラ314は、メモリエラーに対しデータ訂正を提供するEC ロジック342を含む。ECCロジック342の実現には従来からの技術を用い、それは、使用されるデータ訂正要件およびアルゴリズムによって変更可能でメモリを選出して変化する。とこれでは、メモリ構成のデータ訂正ととORAM4つの障害によるエラーを訂正するために16のECCピットが必要であり、同時に再構築プロセス中に1つのランダムエラーが許容される。これにより、ビットエラー訂正の数は合計5つとなる。

【0029】図3に示す実施の形態において、各メモリチャネル346a~346dは、ホットスペアメモリモジュール338を有している。メモリ部分にホットスペアメディアが存在することを宜言するために、構成ユーティリティブログラムが使用される。DRAM障害全体がDIM (デュアルインラインモジュール)で検出された切合、それは訂正されるが、その後、メモリコントローラ314がホットスペアDIMM上にデータを構築する。データビットに対する冗長ビットの割合は、1:8であるが、システムにおける冗長DIMM対DIMMの総数の割合により低減される。ホットスペアDIMMは、少なくとも最大のDIMMと同程度に大きくなければならない。一般に、ホットスペアメモリモジュールは、他のデータメモリモジュールと同じメモリサイズおよびDRAM編成を有している。

【003.0】システム動作中、特定のメモリ位置において十分なエラーが発生した場合、データは、ホットスペアモジュールのメモリ位置に移動される。これにより、不良のデータメモリモジュールか、または異なるデータメモリモジュールの不良のデータメモリモジュールが色になった場合、不良のデータメモリモジュールに転送される。データメモリモジュール全体またはデータメモリモジュールの大部分が不良となった場合、そのデータメモリモジュールは、 始終的にスワップアウトされ、データの完全性が向上しているホットスペアメモリモジュールと交換される。

【0031】図5から図7は、本発明の自己回復メモリで起こるステップを設す、高レベルブロック図を示す。 訂正可能なハードエラーを有するコンピュータシステム に対し障骸耐力のレベルを復元するために実行されるステップは、メモリモジュールにおける訂正可能エラーを 検出することと、訂正可能エラーが検出されたメモリモジュールからのデータをスペアメモリモジュールに移動 して再構築することとを含む。

【0032】図5は、メモリエラーが第1のメモリモジュールにおいて発生している、図3および図4に示す修

成を表す高レベルブロック図を示す。図5を参照すると、第1のメモリモジュール330aにおいて陰を付けた領域で表された4ピットエラーが示されている。4ピットエラーは、メモリモジュールを読み出す際に検出され複数アドレスで発生する、訂正可能なハードエラーまたは永続的エラーである。また、図5に示すプロック図には、スペアモジュール338aが示されている。

【0033】図6は、図3および図4に示す構成に対し データをスペアメモリモジュールに移動して再構築する ステップを表す髙レベルブロック図を示す。図6を参照 すると、矢印380は、データメモリモジュール330 aからスペアメモリモジュール338aへのデータの移 動を表している。移動および再構築プロセス中、データ は第1のデータメモリモジュール330aからスペアメ モリモジュール338aに転送される。移動および再構 築プロセス中は、メモリコントローラによる第1のデー タメモリモジュール330aへの新規な書込みはすべ て、データメモリモジュール330aとスペアメモリモ ジュール338aとの両方に対して行われる。矢印38 2は、この二重審込みプロセスを表す。移動および再構 築プロセスが完了するまで、読出し動作は第1のデータ メモリモジュール330aからのみである。 示されてい る移動および再構築プロセス中は、アルファ粒子により 起こるような、一時的な1ビットエラーを訂正すること ができる。

【0034】図7は、第1のメモリモジュールからスペアメモリモジュールへのデータの移動および再構築のステップ後の、図3および図4に示す構成を表す高レベルプロック図を示す。図7を参照すると、以前はホットスペアモジュールであったモジュール5は、データモジュールになっている。古い第1のモジュールは、今では第1のモジュールからのオリジナルデータに新たな書込みを足したデータを有している。システムユーザにとって有用である場合には、第1のメモリモジュールは、置換されるべきであり、古い第1のメモリモジュール330aはスペアメモリモジュールとなる。

【0035】ホットスペアメモリモジュールにデータを移動するために、メモリコントローラにより、不良のメモリ位置とホットスペアのメモリマッピングが行われる。メモリコントローラのデータメモリモジュールへのマッピングを変更することにより(すなわち、不良のDRAMを有するDIMMを検出した後の、アドレスまたは制御のルーティングにより)、ホットスペアデータメモリモジュールまたはDIMMは、普込みおよびメモリモジュールまたはDIMMは、普込みおよびメモリモジュールと対となるが、読出しは不良のデータメモリモジュールのみから行われるように、設定される。

【0036】次に、CPU、メモリコントローラまたは 管理コントローラは、不良のデータメモリモジュールの 内容をホットスペアデータモジュールにコピーする。こ のプロセス中、不良のデータメモリモジュールへのシステム番込みもすべて、ホットスペアメモリモジュールに書き込まれる。従って、コピーが行われると、不良のデータメモリモジュールのイメージに再構築プロセス中に発生したあらゆる書込みを足したものを、ホットスペアは有している。なお、DIMMからDIMMへの転送を行うときは初期化をしないのに対して、すべてのロケーションをコピーする場合は、訂正されたデータを有するホットスペアデータメモリモジュールを初期化することに留意してほしい。

【0037】エラー訂正方式は、同時に発生する複数のエラーを訂正することができなければならない。このため、例えば、DIMM再構築プロセス中に単一のビットソフトエラーが発生した場合、不良のDIMMに対し、新たなホットスペアとしてマップアウトする(そしてスワップアウトされるまで不良としてマークする)ことができなければならない。そして、新たなホットスペアDIMMがメモリ構成内にマップされることにより、不良のDIMMが完全に置換される。スワップされるべきまたはエラーのロギングのためのDIMMを識別する際、実際の物理的なDIMM位置を計算するためにDIMMマッパ機能が使用される。

【0038】例えば、図3において、システムがまだ実行中である時に、不良のデータメモリモジュールをホットスワップアウトするかまたは取出すようにしてもよい。データ転送が行われた後、新たなデータメモリモきないではより不良のDIMMを置換することができるように、電源および不良DIMMを接続するパス(または取除くべきDIMM)がオフにされる。ホットスワッピングが好ましいが、サーバによっては、パッケージングが好ましいが、サーバによっては、パッケージングが好ましいが、サーバによっては、パッケージングが提供されないかまたは実行不可能である場合がある。これらの場合、次に予定されたグウンタイム中に、不良のデータメモリモジュールをメモリ構成からコールトスワップすることができる。

【0039】好ましい実施の形態では、本発明の実現のために別々のスペアメモリモジュールが必要とされる。スペアメモリモジュールは、メモリ構成においてメートされなければならない。一般的に、このスペアメモリモジュールはよびアドレスパスが、データによるコマンドおよびアドレスパスが、データには、一夕におよびECCメモリモジュールに送信されるコマンドおよびECCメモリモジュールに送信されることが必要である。これは、一夕において、一夕モジュールまたはECCメモリモジュールにおいて、カートスペアメモリモジュールは大郎になる。さらに、このスペアメモリモジュールは休止状態になる。さらに、このスペアメモリモジュールは休止状態になる。さらに、エのスペアメモリモジュールサポートには、好ましくはメモリーアメモリモジュールサポートには、好ましくはメモリー

ントローラにおいて実現されるか、または代替的ににメ モリコントローラ外部の論理回路において実現される、 迫加ロジックが含まれる。

【0040】再構築プロセスに対して最も柔軟な方式は、メモリコントローラが、障害の発生したDIMMを読出し、同時にデータのバーストブロックを(メモリコントローラを経由して)ホットスペアDIMMに転送かった。というものである。障害の発生したDIMMとは、同じメモリサイズおよび構成であるのが好ましいが、障害の発生したDIMMとホットスペアDIMMとは、メモリサイズが異なってもよい。再構築プロセスなるSDRAM編成を使用してもよい。再構築プロセス中、システム読出しは障害が発生したDIMMから行われ、システム書込みは、別々のバーストサイクルで、障害が発生したDIMMとホットスペアDIMMとの両方に対して行われる。

【0041】本発明の1つの実施の形態においては、メ モリモジュールに対してデータを書込むために、ジャグ ラ(juggler)アルゴリズムが使用される。「ジャグ ラ」アルゴリズムは、同じ根棒のセットを交互に空中で 巧みに操る2人の曲芸師(juggler)に例えてそう名づ けられている。DIMMデータは、正常なシステムメモ リのトランザクションが**継続**している間に、「オンライ ンで」不良DIMMからホットスペアDIMMに徐々に 移動されるかまたは交互に行われる(juggle)。好まし い実施の形態について、図4に示すメモリ書込みパター ンの各プロックは、8ピットのデータを表しているが、 ピットの数は実際のメモリ瘩成によって変えることがで きる。例えば、本発明の図3に示す構成における8ピッ トDIMMを16ピットDIMMモジュールで氤換する 場合、図4に示す各ブロックは、16ピットのデータを 表すことになる。

【0042】DIMMにおけるDDR DRAMチップ の破局故障か、またはDIMMコネクタ自体(データビ ン)の障害の後、システムは、サーバをシャットダウン する必要なく、自身をオンラインで移復し障害耐力の正 常レベルに戻る。ジャグラアルゴリズムを用いること で、本発明のメモリ構成は、以下のサーバアプリケーシ ョンに適する。すなわち、1)オペレータの磨ない遠隔 サーバロケーション、2) オンラインでホットスワッピ ングを行うにはアクセス不可能な程、非常に密度高くパ ッケージされたメモリシステムを有するサーバ、3)何 百または何千のサーバを含むことができる大規模集中型 「サーバファーム」において使用されるよう設計され、 I /O、CPUおよびメモリサブシステムのホットスワ ッピングに対し最適化されたサーバ、4) 障害のあるサ ーパを修復のためにシャットダウンすることができ、そ れゆえ個々のサプシステムにホットスワッピングを提供 するという複雑さを要しない、冗長なサーバのペア、で ある。

【0043】本発明のメモリ構成において、JEDEC DDR DIMM仕様に準拠するように、×4および ×8SDRAMに対し133MHzの周波数でエラー訂 正が動作する必要がある。DDRを100MH2で使用 するデュアルチャネルのパースト脊坂幅は、3. 2GB /秒であり、133MHzの場合は4.2GB/秒であ る。従って、サーバまたはワークステーションのメモリ システムが、3.2GB/秒のパースト帯域幅で3:4 の割合で100MHz4×CPUパスと共に使用される 場合、非キャッシュコヒーレント4×AGPメモリアク セスに対し、ワークステーションで追加の帯域幅を使用 することができる。あるいはまた、ホットスペアDIM M再構築プロセス中に、キャッシュライン転送、I/O パースト転送、またはメモリコントローラのオーハヘッ ドに要する、全待ち時間を短縮するため、サーバに帯域 幅を追加して使用することができる。CPUバスがi3 3MH2で動作する場合、メモリは166MH2で動作 することができる。DDRバースト毎に転送されるデー タ(パースト長が4とする)は、64バイトのキャッシ ュラインまたはCPUパスパーストに対応する。

【0044】好ましい実施の形態では、検出されたエラ 一は訂正され記録(ログ)される。イベントログはすべ てのエラーを記録し、エラーログは異なるエラークラス に対しておよび特定のDIMMロケーションに対して行 われるのが好ましい。なお、ソフトエラーは一時的な降 **省であり、ハードエラーは、永続的な障害を表す。この** ため、ニブル境界における4ビットハードエラーの検出 により、ホットスペア上のデータの「再構築」が起動さ れる。同様に、DIMMコネクタ障害が検出された場 合、優良なDIMMソケットを有するホットスペア上の データの再構築を起動するためにそれを使用することが でき、あるいは、データを単に訂正することができる。 【0045】スパイラルな費込みパターンを審込むため には、図3の構成に示すデータメモリモジュールはすべ て存在しなければならない。メモリコントローラが異な るメモリアドレスを通過するに従い、データがスパイラ ルな形式または書込みパターンでデータモジュールおよ びECCメモリモジュールに書込まれる。ECCとラベ ル付けされているが、スパイラル番込みパターンの場 合、ECCモジュールはデータ用にも使用され、データ モジュールは書込みサイクルの場所によりECCデータ の書込みにも使用される。

【0046】複雑な方法ではあるが、スパイラル街込みパターンより単純な再構築アルゴリズムを有する代替的な自己回復方法は、非ECC DIMMを使用し、ECC用に付加された2DIMMを含む16パイトプロックのメモリチャネルに渡ってデータをストライプするというものである。それぞれ2つのホットスペアDIMMが含まれる場合、これには最低20のDIMMが必要である。従って、デークビットに対する冗長データビットの

割合は、ホットスペアを含んで】: 4 である。RAID システムと同様、DIMMはすべて同じサイズでなければならない。

【0047】データがアレイの各DIMMにストライプされると、プロックサイズが1ニブルかまたは1バイト幅である場合、障害が発生したDIMMを、障害が発生したDIMMを、障害が発生した時に取り除き置換することができ、また、システムをクラッシュさせることなくDIMMを取除くことがある。その結果、不良DIMMのホットスワップ後、新たなDIMMは有効なデータを含まなくなり、メモリンクセスが行われるときに再構築することができる。おり、方ではまた、全アドレス空間を、CPU、管理コントレーラによってシーケンシャルに対はまた、全アドレス空間を、CPU、管理コントレーラまたはメモリコントローラによってシーケンシャルに対比を対できる。これにより、再構築プロセスが行われるまで、データと共に告込まれる正しいECCビットを有する新たなDIMMの各ロケーションに対し、RーMーW(Read-Nodify-Vrite)が行われる。

【0048】図8は、本発明のメモリモジュールに対してデータを書込むかまたはストライプする第1の方法を示す。図9は、本発明に従ってメモリモジュールに対してデータを書込むかまたはストライプする第2の方法を示す。図8に示す書込みパターンは72ピット幅のメモリモジュールに適用され、図3に示す実施の形態では、メモリチャネル毎に少なくとも9つのDIMMと1つのスペアメモリモジュールが必要となる。対照的に、図9に示す書込みパターンは、64ピット幅のメモリモジュールに適用される。それは、一般的に、図8に示す方法と同じ数のDIMMが必要であるが、データメモリの容量が少ないため、ストライピングパターンが図8のパターンとは異なっている。

【0049】データストライピングという代替方法は、 (1) ホットスワップ再携築アルゴリズムの複雑さを低 波する(不良DIMMをいつでもスワップすることがで きるため)こと、および(2)メモリコントローラとN OSが独立していることが魅力であるが、好ましくない かまたはシステム構成の柔軟性を低下させる可能性のあ る制約がいくつか追加される。第1に、メモリアレイ は、同じサイズのDIMM内で完全に占有されなければ ならない。第2に、必要なDIMMの数は、4または1 8に分割されるDIMMデータ幅に等しい。これは、ベ ースシステムにおけるアレイサイズが非常に大きいが、 メモリアレイサイズを8ピットチップキルを用いること によって9トータルに縮小することができる、というこ とを意味する。この代替的な自己回復方式の問題は、デ ータストライピングプロセスがメモリ制御およびアドレ ス指定の複雑さを増大させるのと同様に電力の消失を増 大させる可能性がある、ということである。更に、OL Xによる迫加にホットスワップ方式が使用される場合、 システムをパワーダウンしメモリアレイデータ金体を再

構築することなく、アレイに新たなDIMMを追加することが複雑になる。これら同じ問題は、RAIMと呼ぶこの方式に比較して、ディスクドライブを用いるRAIDシステムにも存在する。このため、この代替方法は、多くのDIMMソケットを備えた非常に大容量のメモリを有するハイエンドサーバにより適している。

【0050】図10は、RAMBUS×モリ構成と共に 使用することができる本発明の第2の代替的な実施の形態の形態の部分プロック図を示す。図3に示す実施の形態に比べて、図10に示す代替的な実施の形態は好ましくない。図10に示すデイジーチェーン直列アーキテクチャー・ウェンステムの実行中には、データンナーの基本的な問題は、システムの実行中には、データンナーの基本的な問題は、システムの実行中には、データンナーとり、デールをバスから取除くこともパワーダウンナーともできず、そのため、ホットスワッピングを行っととができない、ということである。更に、ECCビットは直列である。従って、1つのコネクタピン障害により、デイジーチェーンにおける16のバースト的な複数エラーによりシステムに障害がもたらされることとなる。

【0051】図10を参照すると、メモリコントローラ412に電気的に接続されたCPUバス410が示されている。メモリコントローラ412は、複数のメモリチャネル416a、416cに電気的に接続されている。メモリチャネル416aは、ホットスペアメモリモジュールを含んでいる。メモリチャネル416bは、8つのデータメモリモジュールを含む。好ましくは、メモリチャネル416cは、3つのECCメモリモジュールを含む。

【0052】図10に示すメモリ構成は、2パイト幅の 非ECCメモリチャネルを使用する。従って、RAMB USモジュールの1チャネル分を有するPCBを、シス テムから取り除くことができる。すなわち、8つのメモ リチャネル、2つのECCメモリチャネルおよび1つの ホットスペアチャネルである。ECCビットの数は、2 パイトのチャネル障害を訂正するために十分大きくなけ ればならない。データビットに対する冗長ビットの割合 は小さい。従って、図10に示すメモリ構成は、非常に ハイエンドなシステムに対してのみ適している。

【0053】上記説明は、例示のために示されており、限定することを意図しているのではないことが理解される。例えば、データメモリモジュールからのデータのマッピングを行うためにジャグラアルゴリズムおよびデータストライピングアルゴリズムが示されているが、データをマッピングするために、RAIDメモリ構成にゴリて一般的に使用されるアルゴリズム等の、他のアルゴリズムを使用してもよい。従って、発明の範囲は、上記説明に関して決定されるべきではなく、添付の特許請求の範囲とかかる請求の範囲が権利を与えている同等物の全範囲に関して決定されるべきである。

【0054】本発明は例として次の実施態様を含む。

【0055】(1) メモリコントローラに電気的に結合されたCPUパスと、メモリコントローラに電気的に結合されたデータパスと、少なくとも1つのデータ記憶用メモリモジュールと、少なことも1つのスペアメモリモジュールと、前記少なくとも1つのデータ記憶用メモリモジュールは、前記データバスに並列に電気のアメモリモジュールは、前記データバスに並列に電気のに結合されており、前記少なくとも1つのデータ記憶用メモリモジュールで発生する訂正可能なエラーに応ジュールからのデータが前記スペアメモリモジュールにマップされるメモリ構成。

【0056】(2) 前記データ記憶用メモリモジュールは、複数のメモリ装置を含み、前記複数のメモリ装置の少なくとも一部は、エラー訂正に使用される、上記(1)に記載のメモリ構成。

【0057】(3) 前記少なくとも1つのデータ記憶用モジュールからのデータの前記スペアメモリモジュールへの前記マッピングは、ユーザの介入無しに自動的に発生する、上記(1)に記載のメモリ構成。

【0058】(4) 少なくとも1つのエラー訂正用メモリモジュールを含み、前記少なくとも1つのエラー訂正用メモリモジュールは、前記少なくとも1つのデータ記憶用メモリモジュールおよび前記少なくとも1つのスペアメモリモジュールに並列に電気的に結合されている、上記(1)に記載のメモリ構成。

【0059】(5) 前記データバスを少なくとも第1 のバスセグメントと第2のバスセグメントとに分割する 少なくとも1つのスイッチを含む、上記(1)に記載の、 メモリ構成。

【0060】(6) 前記データパスを少なくとも第1のバスセグメントと第2のパスセグメントとに分割する前記少なくとも1つのスイッチがFETスイッチである、上記(1)に記載のメモリ構成。

【0061】(7) ジャグラアルゴリズムを使用し

て、前記少なくとも1つのデータ記憶用メモリモジュールから前記スペアメモリモジュールにデータがマップされる、上記(1)に記載のメモリ構成。

【0062】(8) データストライピングアルゴリズムを使用して、データがデータ記憶用メモリモジュールに得込まれる、上記(1)に記載のメモリ構成。

## 【図面の簡単な説明】

【図1】 DIMMモジュールが直列に接続されている RAMBUSメモリ構成の高レベル部分プロック図。

【図2】 エラー訂正機能を提供するRAMBUSメモリ構成のデータおよびパリティチャネルの高レベル部分プロック図。

【図3】 本発明による自己回復並列メモリ構成の部分 ブロック図。

【図4】 本発明の好ましい実施の形態による代替的な 実施の形態の自己回復並列メモリ構成の部分ブロック 図。

【図5】 第1のメモリモジュールでメモリエラーが発生している、図3および図4に示す構成を表す高レベルブロック図。

【図6】 図3および図4に示す構成についてスペアメ モリモジュールにデータを移動し再構築するステップを 表す高レベルブロック図。

【図7】 第1のメモリモジュールからスペアメモリモ ジュールへデータを移動し再構築するステップの後の、 図3および図4に示す構成を表す高レベルブロック図。

【図8】 本発明による自己回復メモリ構成のメモリモジュールへのデータの普込みまたはストライピングの第1の方法。

【図9】 本発明による自己回復メモリ構成のメモリモ ジュールへのデータの書込みまたはストライピングの第 2の方法。

【図10】 RAMBUSメモリ構成と共に使用することができる本発明の代替的な実施の形態の部分ブロック図。

【図1】



[ 2 2 ]



【図3】



[図4]





24

